在移动设备上的语音模型(在设备个性化)上的个性化是一个活跃的研究领域,但是通常,移动设备比配对的音频文本数据具有更多的仅文本数据。我们探索培训有关仅文本数据的个性化语言模型,该模型在推理期间用于提高该用户的语音识别性能。我们在一个用户群体的Librispeech语料库上进行了实验,并为Gutenberg Project的每个用户提供了个性化的文本数据。我们发布此特定于用户的LibrisPeech(UserLibri)数据集,以帮助未来的个性化研究。LibrisPeech音频转录对分为来自测试清洁数据集的55个用户,另外有52位用户。我们能够降低流媒体和非启动模型中的两个集合中每个用户的平均单词错误率,包括在流式传输时为更难的测试用户组的2.5改进。
translated by 谷歌翻译
由于服务器客户的通信和设备计算的瓶颈,大多数研究联合学习的研究都集中在小型模型上。在这项工作中,我们利用各种技术来缓解这些瓶颈,以在联合学习的跨设备中训练更大的语言模型。借助部分模型培训,量化,有效的转移学习和沟通效率优化器的系统应用,我们能够培训$ 21 $ M的参数变压器和20.2美元的参数构象异构体,这些构象异构体与类似大小相同或更好的困惑LSTM具有$ \ sim10 \ times $ $较小的客户到服务器通信成本,比文献中常见的较小的LSTMS $ 11 \%$ $ $ $。
translated by 谷歌翻译
Neural style transfer is a deep learning technique that produces an unprecedentedly rich style transfer from a style image to a content image and is particularly impressive when it comes to transferring style from a painting to an image. It was originally achieved by solving an optimization problem to match the global style statistics of the style image while preserving the local geometric features of the content image. The two main drawbacks of this original approach is that it is computationally expensive and that the resolution of the output images is limited by high GPU memory requirements. Many solutions have been proposed to both accelerate neural style transfer and increase its resolution, but they all compromise the quality of the produced images. Indeed, transferring the style of a painting is a complex task involving features at different scales, from the color palette and compositional style to the fine brushstrokes and texture of the canvas. This paper provides a solution to solve the original global optimization for ultra-high resolution images, enabling multiscale style transfer at unprecedented image sizes. This is achieved by spatially localizing the computation of each forward and backward passes through the VGG network. Extensive qualitative and quantitative comparisons show that our method produces a style transfer of unmatched quality for such high resolution painting styles.
translated by 谷歌翻译
Story generation and understanding -- as with all NLG/NLU tasks -- has seen a surge in neurosymbolic work. Researchers have recognized that, while large language models (LLMs) have tremendous utility, they can be augmented with symbolic means to be even better and to make up for any flaws that the neural networks might have. However, symbolic methods are extremely costly in terms of the amount of time and expertise needed to create them. In this work, we capitalize on state-of-the-art Code-LLMs, such as Codex, to bootstrap the use of symbolic methods for tracking the state of stories and aiding in story understanding. We show that our CoRRPUS system and abstracted prompting procedures can beat current state-of-the-art structured LLM techniques on pre-existing story understanding tasks (bAbI task 2 and Re^3) with minimal hand engineering. We hope that this work can help highlight the importance of symbolic representations and specialized prompting for LLMs as these models require some guidance for performing reasoning tasks properly.
translated by 谷歌翻译
咳嗽音频信号分类是筛查呼吸道疾病(例如COVID-19)的潜在有用工具。由于从这种传染性疾病的患者那里收集数据是危险的,因此许多研究团队已转向众包来迅速收集咳嗽声数据,因为它是为了生成咳嗽数据集的工作。 Coughvid数据集邀请专家医生诊断有限数量上传的记录中存在的潜在疾病。但是,这种方法遭受了咳嗽的潜在标签,以及专家之间的显着分歧。在这项工作中,我们使用半监督的学习(SSL)方法来提高咳嗽数据集的标签一致性以及COVID-19的鲁棒性与健康的咳嗽声音分类。首先,我们利用现有的SSL专家知识聚合技术来克服数据集中的标签不一致和稀疏性。接下来,我们的SSL方法用于识别可用于训练或增加未来咳嗽分类模型的重新标记咳嗽音频样本的子样本。证明了重新标记的数据的一致性,因为它表现出高度的类可分离性,尽管原始数据集中存在专家标签不一致,但它比用户标记的数据高3倍。此外,在重新标记的数据中放大了用户标记的音频段的频谱差异,从而导致健康和COVID-19咳嗽之间的功率频谱密度显着不同,这既证明了新数据集的一致性及其与新数据的一致性及其与新数据的一致性的提高,其解释性与其与其解释性的一致性相同。声学的观点。最后,我们演示了如何使用重新标记的数据集来训练咳嗽分类器。这种SSL方法可用于结合几位专家的医学知识,以提高任何诊断分类任务的数据库一致性。
translated by 谷歌翻译
强化学习(RL)的工作负载需要臭名昭著的时间来训练,因为在运行时间从模拟器收集了大量样本。不幸的是,群集扩展方法仍然很昂贵,并且在GPU计算之间来回切换时,模拟器的常用CPU实现会诱导高空开销。我们探索两种优化,通过增加GPU利用率来提高RL数据收集效率:(1)GPU矢量化:在GPU上平行模拟,以增加硬件并行性,以及(2)模拟器内核融合:融合多个模拟步骤,以在单个GPU内核中运行。启动以减少全局内存带宽要求。我们发现,与常用的CPU模拟器相比,GPU矢量化最多可达到$ 1024 \ times $速度。我们介绍了不同实现的性能,并表明,对于简单的模拟器,GPU矢量化的ML编译器实现(XLA)通过将CPU从重复的Python降低到DL Backend API呼叫来优于DNN Framework(Pytorch)$ 13.4 \ times $。我们证明,带有简单模拟器的模拟器内核融合加速度为$ 11.3 \ times $,并且随着模拟器复杂性在内存带宽要求方面的增加,增加了$ 1024 \ times $。我们表明,来自模拟器内核融合的加速度是正交的,可以与GPU矢量化结合,从而导致乘法加速。
translated by 谷歌翻译
自主驾驶的最新作品已广泛采用了鸟眼视图(BEV)语义图作为世界的中间表示。这些BEV地图的在线预测涉及非平凡操作,例如多摄像机数据提取以及融合和投影到常见的顶级网格中。这通常是通过易易错的几何操作(例如,单眼深度估计的同构图或反射)或BEV中图像像素和像素(例如,具有MLP或注意力)之间的昂贵直接密集映射来完成。在这项工作中,我们提出了“ Lara”,这是一种有效的编码器编码器,基于变压器的模型,用于从多个摄像机中进行车辆语义分割。我们的方法使用交叉注意的系统将信息通过多个传感器汇总为紧凑而丰富的潜在表示。这些潜在的表示在通过一系列自我发场块处理后,在BEV空间中进行了第二次交叉注意。我们证明,我们的模型在Nuscenes上的表现优于使用变压器的最佳先前作品。
translated by 谷歌翻译
作为对威胁或不利条件的神经生理学反应,压力会影响认知,情绪和行为,并在持续暴露的情况下对健康产生有害的影响。由于语音的情感内容固有地由个人的身心状态调节,因此大量的研究专门研究了引起压力的任务负荷的副语言相关性。从历史上看,语音应力分析(VSA)是使用常规数字信号处理(DSP)技术进行的。尽管基于深神网络(DNN)的现代方法发展了现代方法,但由于多种压力源和个体压力感知的差异,准确检测语音压力仍然很困难。为此,我们介绍了一组五个数据集,用于语音中的任务负载检测。在志愿者队列中诱发了认知或身体压力,累积数量超过一百位讲话者,因此收集了声音记录。我们使用数据集设计和评估了一种新型的自我监督音频表示,该音频表示利用了手工制作的功能(基于DSP)的有效性和数据驱动的DNN表示的复杂性。值得注意的是,所提出的方法的表现优于广泛的手工特征集和新型的基于DNN的音频表示方法。
translated by 谷歌翻译
大型预先训练的生成语言模型的出现为AI故事的常见框架通过采样模型来创建持续故事的序列。然而,单独的抽样对故事产生不足。特别是,很难指导语言模型来创建故事以达到特定的目标事件。我们提出了两种在深增强学习和奖励塑造的自动化技术,以控制计算机生成的故事的情节。首先利用近端策略优化来微调现有的基于变换器的语言模型,以生成文本持续,而且是寻求目标。第二种提取来自展开故事的知识图,该故事由策略网络使用,具有图注意选择由语言模型生成的候选继续。我们报告了与故事如何实现给定的目标事件以及与基线和消融相比的一致性和整体故事质量的人类参与者排名的自动化指标报告。
translated by 谷歌翻译
删除身份证图像中的背景是远程验证系统的真正挑战,因为许多重新数字化图像存在杂乱的背景,照明条件差,失真和闭塞。 ID卡图像中的背景使分类器和文本提取困扰。由于缺乏用于研究的可用图像,该领域今天代表了计算机愿景中的一个开放问题。这项工作提出了一种使用ID卡的语义分割来删除背景的方法。最后,使用由45,007张图像组成的手动标记的数据集在实际操作中捕获的图像,其中包括来自三个国家(智利,阿根廷和墨西哥)的五种类型的ID卡,包括典型的演示攻击情景。该方法可以帮助改进常规身份验证或文档篡改检测系统中的以下阶段。根据MobileNet和DenSenet10探索了两种深入学习方法。使用MobileNet获得最佳结果,具有650万参数。智利身份证的平均交叉路口(IOO)在4,988张图像的私人测试数据集中为0.9926。来自智利,阿根廷和墨西哥的ID卡片图像的融合多国数据集的最佳成果达到了0.9911的IOU。所提出的方法是重量轻,足以用于移动设备上的实时操作。
translated by 谷歌翻译